В русскую словарную базу добавилось около 1000 глаголов с наиболее продуктивными моделями, включая такие архиважнейшие слова, как пинговать и сконфигурироватьсяДалее по плану: пересчет вероятностной модели русской морфологии, чтобы получить актуальный part-of-speech tagger. Затем - лемматизация 45 Гб корпуса текстов, включая википедию и новости.
(
Read more... )